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ABSTRAKT 


Odzwierciedlając zmieniającą się praktykę statystyczną w badaniach psychologicznych, 
w której dominuje testowanie hipotez zerowych z wykorzystaniem decyzji o poziomie istotności 
wyników, wskazano zalecenia dotyczące raportowania w pracach wielkości efektu. W opracowaniu 
przedstawiono pojęcie wielkości efektu oraz wskazano miejsce, jakie zajmuje w analizie danych 
w odniesieniu do istotności wyników. Celem pracy jest opisanie wybranych wskaźników wielkości 
efektu, a także wskazanie potrzeby zastosowania i poprawnej ich prezentacji i interpretacji w rapor- 
cie analiz prac empirycznych z zakresu nauk społecznych. Biorąc pod uwagę ograniczenia podejścia 
statystycznej analizy danych opartej jedynie na poziomie istotności, w opracowaniu zaprezentowa- 
no możliwości umieszczania w analizach danych wskaźnika o większym praktycznym zastosowa- 
niu, jakim jest wielkość efektu. Wykorzystując najbardziej popularne metody analityczne, takie jak 
testy £ Studenta, jednoczynnikowe analizy wariancji w schematach między- i wewnątrzgrupowych, 
a także analizy testem Wilcoxona, U Manna-Whitneya, H Kruskala-Wallisa, testem Friedmana oraz 
uwzględniając analizy dla danych jakościowych, zaprezentowano dobrane do planów badawczych 
wskaźniki wielkości efektu. Ponadto opisano wykorzystanie, sposób obliczania oraz interpretację 
wybranych wskaźników wielkości efektu, jakimi są wskaźniki: d Cohena, g Hedgesa, delta, ie Glas- 
sa, korelacja par dopasowanych r , eta-kwadrat, omega-kwadrat oraz epsilon-kwadrat, W Kendalla 
oraz fi, V Cramera czy iloraz szans i ryzyko względne. Prezentację wskaźników wielkości efektu 
zestawiono z odpowiadającymi im planami badawczymi i rodzajem zebranych danych. 


Słowa kluczowe: wielkość efektu; hipoteza zerowa; analiza statystyczna; badania 
psychologiczne 
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WPROWADZENIE 


Już za sprawą W. Wundta w 1879 r. psychologia skutecznie przekształciła się 
w naukę empiryczną. Od tego czasu stale ulepszane są metody samego pomiaru, 
co wyraża się w bardziej dokładnych testach, lepiej skonstruowanych kwestiona- 
riuszach czy trafniej dobieranych wskaźnikach. Rozwojowi podlegają także spo- 
soby analizy uzyskanych wyników, ich prezentacji i interpretacji. Klasyczny mo- 
del analizy danych i poszukiwania odpowiedzi na postawione pytania badawcze 
wykorzystuje testowanie istotności hipotezy zerowej. Jest to najczęściej wykorzy- 
stywana metoda analizy danych. Ma jednak pewne ograniczenia, których badacze 
są coraz bardziej świadomi. Próbą uzupełnienia możliwości wyciągania praktycz- 
nych wniosków z badań empirycznych są wskaźniki wielkości efektu. 

Mimo powszechnej znajomości wykorzystania wielkości efektu w swoich 
badaniach Sun, Pan i Wang (2010) wykazali, że liczba artykułów z obszaru psy- 
chologii, gdzie raportuje się te wartości, wynosi 49%, a liczba artykułów, gdzie 
poddaje się je interpretacji, to 57%. Inni badacze wskazali, że nawet 42% badań 
psychologicznych pozostaje bez podanej wielkości efektu (Fritz, Morris, Richler, 
2012). Co więcej, w wielu przypadkach wielkość efektu jest całkowicie pomijana, 
szczególnie przy braku istotności analizowanych testów statystycznych. W tak 
niejednoznacznej i wielopłaszczyznowej nauce, jaką jest psychologia, zreduko- 
wano stawiane wnioski do zero-jedynkowej decyzji, opartej jedynie o wartość po- 
ziomu istotności. Jak zaznacza Kirk (2001), liczba prac opublikowanych w ,,Jour- 
nal of Applied Psychology”, zawierających wskaźniki wielkości efektu, wzrosła 
z 12% do aż 77% po publikacji w 1995 r. standardów edytorskich. Do tej zna- 
czącej poprawy, jak zauważył Kirk, doprowadził wskaźnik R° wykorzystywany 
w analizie regresji. Ten wskaźnik, automatycznie wskazywany w podstawowych 
pakietach statystycznych, stanowił aż 60% wszystkich prac, gdzie prezentowane 
były wielkości efektu. Pozostałe wskaźniki, takie jak omega-kwadrat czy f Cohe- 
na, których wykorzystanie jest bardziej poprawne np. w ocenie modelu wariancji, 
nie przekraczały 0,5%. Jak zaznacza Kirk (2001), przygotowane automatycznie 
przez programy analityczne wielkości efektu nie zawsze są dobrze dopasowane 
do planów badawczych. Definicja, wykorzystanie i interpretacja, a także rola, jaką 
odgrywa wielkość efektu obok testowania hipotezy zerowej w badaniach psycho- 
logicznych, zostały omówione w niniejszym opracowaniu. 


WYBRANE WSKAZNIKI WIELKOSCI EFEKTU W BADANIACH PSYCHOLOGICZNYCH 141 


TESTOWANIE HIPOTEZY ZEROWEJ W BADANIACH 
PSYCHOLOGICZNYCH 


1. Podejście metody NHST 


W tradycyjnym podejściu istnieje system dwóch sprzecznych hipotez, któ- 
rych celem jest tworzenie ram wnioskowania o populacji na podstawie próby 
(Field, 2013; Sun i in., 2010). Hipotezy zerowa (H,), będąca faktycznym obiektem 
testowania statystycznego, oraz alternatywna (H,), stanowiąca o przewidywanym 
istnieniu zależności między zmiennymi, są w tym podejściu metodą odpowie- 
dzi na postawione pytania badawcze. Metoda NHST (Null Hypothesis Statistical 
Testing), oznaczająca statystyczne testowanie hipotezy zerowej, jak opisują King 
i Minium (2020), jest skoncentrowana na ocenie prawdopodobieństwa wystąpie- 
nia zdarzenia opisanego w hipotezie zerowej. Osiągnięta w analizie wartość istot- 
ności odnoszona jest do kryterium decyzyjnego, jaki stanowi przyjęty poziom 
Alfa, który najczęściej wynosi 0,05 lub 0,01. Uzyskany wynik istotności, będący 
równy lub niższy od wybranej wartości Alfa, prowadzi do wniosku, że wystąpie- 
nie zdarzenia opisanego w hipotezie zerowej jest mało prawdopodobne, zatem hi- 
poteza zerowanie może być prawdziwa. Skutkuje to jej odrzuceniem i przyjęciem 
jako wniosek o populacji hipotezy alternatywnej. Na podstawie oceny prawdopo- 
dobieństwa wystąpienia sytuacji określonej w hipotezie zerowej stawia się wnio- 
ski o zależnościach między zmiennymi w populacji, których istnienie definiuje 
hipoteza alternatywna. 


2. Ograniczenia NHST 


Bezrefleksyjne stawianie wniosków w odniesieniu jedynie do wyniku istot- 
ności może posiadać ograniczoną wartość naukową (Brzeziński, 2021). Odpo- 
wiednia manipulacja liczbą obserwacji sprawi, że nawet najmniejsza różnica, bez 
praktycznej wartości, będzie mogła być uznana za istotną. Rozmiar próby ma 
duże znaczenie dla wyniku poziomu istotności, a zatem także dla odpowiedzi na 
postawione pytanie badawcze (Field, 2013; King, Minium, 2020; Sun i in., 2010). 
Liczba obserwacji ma bezpośrednie znaczenie dla wskazania liczby stopni swo- 
body, które razem z wyliczonym wynikiem testu statystycznego wskazują jego 
poziom istotności. Zwiększenie liczby stopni swobody (poprzez zwiększenie licz- 
by obserwacji) zmniejsza wartość krytyczną wymaganą do uznania wyniku testu 
za istotny, co jako problem zbyt dużej próby wskazał Hays (1973, za: Brzeziński, 
2021). Sugeruje się także, że podejście NHST nie zawsze jest odpowiedzią na po- 
stawione pytanie badawcze z dwóch powodów: (1) testowaniu podlega zupełnie 
przeciwne zdarzenie opisane w hipotezie zerowej niż to, które faktycznie inte- 
resuje badacza oraz (2) hipoteza zerowa w jakimś stopniu jest zawsze fałszywa, 
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ponieważ dwie średnie nigdy nie są identyczne (Ferguson, 2009; Field, 2013; 
Grissom, Kim, 2011). 

Zero-jedynkowa natura podejścia NHST jest z pewnością przydatna dla in- 
żynierów czy fizyków, lecz w naukach społecznych może być opisywana jako 
niepraktyczna i nieefektywna (Ferguson, 2009). Ponadto nie wskazuje badaczom 
tego, co często chcieliby wiedzieć, a także utrudnia wyciągnięcie praktycznych 
wniosków o badanych zależnościach (Kirk, 2001; Sun i in., 2010) i nie pozwala 
na akumulację wiedzy w postaci metaanaliz (Bosco, Aguinis, Singh, Pierce, 2015; 
Grissom, Kim, 2011). Proponowanym od dawna kierunkiem w analizie wyników 
są wskaźniki wielkości efektu. 


WIELKOŚĆ EFEKTU 
1. Definicja i wykorzystanie 


Opisując pojęcie wielkości efektu, Pek i Flora (2018) wskazują, że można go 
tłumaczyć jako pomiar siły czy wielkości, z jaką predykator oddziałuje na zmien- 
ną wyjściową. Field (2013) dodaje, że wielkość efektu jest obiektywnym i stan- 
daryzowanym (zazwyczaj) pomiarem obserwowanego oddziaływania. Wskaźnik 
wielkości efektu jest uwolnioną od jednostki pomiaru próbą oszacowania stopnia, 
w jakim zależność między zmiennymi jest obecna w populacji (Cohen, 1998, za: 
Brzeziński, 2021). Effect size, oznaczający wielkość efektu, można uznać za mia- 
rę siły związku między zmiennymi (Bosco i in., 2015; Kiihberger, Fritz, Scherndl, 
2014). Może być także traktowany jako wielkość różnic między grupami czy po- 
miarami (Coe, 2002; Sullivan, Feinn, 2012). Wielkością efektu można też nazwać 
każdą statystykę, która pozwala na wskazanie stopnia, w jakim populacja różni się 
od oczekiwań określonych w hipotezie zerowej. Istnieje wiele wskaźników, które 
mogą być wykorzystane w ocenie wielkości efektu, ale w badaniach można za- 
uważyć pewną grupę najczęściej wykorzystywanych miar (Henson, 2016) i — jak 
zauważa Sun i in. (2010) — każde z nich mają wady i zalety w określonych warun- 
kach czy planach badawczych. 

Wskazanie w analizie danych wielkości efektu było zalecane już w czwar- 
tej edycji standardów edytorskich (American Psychological Association [APA], 
1994) i zostało jeszcze mocniej zaznaczone w siódmej edycji (APA, 2020, s. 89): 
„Aby czytelnicy mogli docenić wielkość lub wagę wyników badań, zaleca się 
uwzględnienie pewnej miary wielkości efektu w sekcji wyników. (...) Ogólną 
zasadą, której należy przestrzegać, jest dostarczenie czytelnikom wystarczają- 
cej ilości informacji, aby ocenić wielkość obserwowanego efektu”. Brzeziński 
(2021, s. 231) również zaznacza, że „nie można wypuścić w Świat pracy, w której 
nie będą podane wartości wielkości efektu”. Przedstawienie omawianych miar 
jest konieczną informacją w pracy empirycznej z kilku powodów. W pierwszej 
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kolejności wielkość efektu jest praktyczną wskazówką o wynikach badania i po- 
zwala na lepsze odniesienie wyników próby na zależności zmiennych w popula- 
cji (Fritz i in., 2012; Vascha-Haase, Thompson, 2004). Dodatkowo wskaźnik ten 
pozwala na wykorzystanie doniesień z badania w metaanalizie (Pek, Flora, 2018; 
Sun i in., 2010), czego powodem może być uznanie wielkości efektu za wskaź- 
nik wolny od liczby obserwacji (Ferguson, 2009). Wartości testów statystycznych 
oraz wartości poziomu istotności zawsze będą uwzględniały liczbę obserwacji, 
wykorzystane narzędzia i skale pomiaru, co ogranicza możliwość porównania 
wyników z różnych badań. Ograniczenia te, nieuwzględnione w podejściu NHST, 
sprawiają (szczególnie przy nielosowym doborze), że tworzenie wniosków jedy- 
nie na podstawie poziomu istotności może się stać zadaniem trywialnym (Fergu- 
son, 2009). 


2. Poziom istotności a wielkość efektu i przedziały ufności 


Bardzo niski wynik poziomu istotności nie powinien stanowić podstawy do 
bezrefleksyjnych wniosków o istnieniu akceptowanego efektu w populacji (Sun 
i in., 2010). Jak zaznacza Brzeziński (2021), sam poziom istotności nie służy do 
oceny rzeczywistego oddziaływania między zmiennymi, tylko daje badaczom in- 
formacje o prawdopodobieństwie popełnienia błędu pierwszego rodzaju. Warto- 
ści poziomu istotności oraz wielkości efektu uzupełniają się i można o nich my- 
śleć jak o stronach tej samej monety, lecz wnioski płynące z interpretacji jednego 
i drugiego wyniku nie są tożsame. Analizując wspólnie poziom istotności oraz 
wielkość efektu, można wskazać cztery możliwe do uzyskania w badaniach wła- 
snych sytuacje (Sun i in., 2010): 

a) istotność statystyczna + silny, akceptowalny efekt, 

b) brak istotności statystycznej + słaby, nieakceptowalny efekt, 
c) istotność statystyczna + słaby, nieakceptowalny efekt, 

d) brak istotności statystycznej + silny, akceptowalny efekt. 

O ile poziom istotności może być rozpatrywany binarnie (istotny vs nieistot- 
ny wynik), o tyle wielkość efektu jest stopniowalna, zatem uzyskanie zerowego 
efektu jest rzadkie, stąd określenie „efekt nieakceptowalny”, sugerujący niskie 
i bardzo niskie jego wartości. Niewiele trudności powinna sprawić interpretacja 
sytuacji a i b, kiedy wartość poziomu istotności oraz wielkości efektu są spójne. 
Z kolei sytuacja c może stanowić najczęściej spotykany błąd wnioskowania opar- 
ty na wyniku poziomu istotności, kiedy osiągając bardzo niski jego wynik, wy- 
prowadza się konkluzje na temat sposobu oddziaływania zmiennych w populacji, 
nie zwracając uwagi na fakt małego lub bardzo małego efektu (Brzeziński, 2021; 
Sun i in., 2010). Sytuacja d to przykład, kiedy wyraźny efekt nie może zostać 
zgeneralizowany i nie może prowadzić do wniosku o populacji. Ostatnie sytuacje 
(c i d) oraz różnice między wartością poziomu istności a wielkością efektu mogą 
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być uznawane za zagrożenie w procesie walidacji badania, którego dotyczą (Sun 
i in., 2010). W promocji dobrych praktyk statystycznych Kirk (2001) zaznacza, że 
najlepszym podejściem do wskazywania doniesień empirycznych jest połączenie 
wniosków o wielkości efektu i o jego istotności. Oznacza to także sytuacje, kiedy 
otrzymana wielkość efektu jest niska lub bardzo niska. Praktyka niewykazywania 
niskich wartości wielkości efektu może sprawić, że do metaanaliz trafią jedynie 
badania i wyniki osiągające wyższe wartości. Może to doprowadzić do przesza- 
cowania realnego związku, jaki występuje między zmiennymi, kiedy ocenie pod- 
damy tylko wyniki i badania potwierdzające ich silną korelację. 

Możliwość pełnego wykorzystania wyników badania w metaanalizach wy- 
maga, obok wartości otrzymanej wielkości efektu, podania przedziałów ufności 
CI (Confidential Intervals; zob. Cohen, 1990, za: Brzeziński 2021). W badaniach 
można spotkać najczęściej 85-, 95- i 99-procentowe przedziały ufności. Ich dolna 
wartość LL (Lower Limit) oraz górna wartość UL (Upper Limit) stanowią prze- 
dział wyników, w którym zawiera się wynik otrzymany wielkości efektu bada- 
nia. Zwiększając prawdopodobieństwo przedziałów np. z 85% do 95%, wzrośnie 
również rozpiętość uzyskanych wartości i jednocześnie obniży się ich precyzja. 
Odwrotnie będzie, gdy obniżymy prawdopodobieństwo — wówczas przedziały 
staną się węższe, bardziej precyzyjne (Brzeziński, 2021). Interpretacja CI stano- 
wi czasami kłopot, ponieważ jej wartości nie oznaczają, że z danym prawdopo- 
dobieństwem przedział ten zawiera estymowany parametr populacji. Przykłado- 
wo 95-procecntowy przedział ufności mówi, że powtarzając wiele razy te same 
pomiary na tej samej populacji, 95% tych badań będzie zawierać wartość, jaka 
opisuje tę populację (Field, 2013). Mając na uwadze konieczność wskazywania 
w analizie danych wskaźnika wielkości efektu, w dalszej części opracowania za- 
prezentowano wybrane wzory wraz z omówieniem i propozycją ich interpretacji. 


WYBRANE WSKAŹNIKI WIELKOŚCI EFEKTU 


Istnieje wiele wskaźników, które mogą być wykorzystywane w anali- 
zie danych (Kirk, 2001). Ich liczba uniemożliwia przedstawienie wszystkich 
możliwości, dlatego w opracowaniu zdecydowano się opisać wybrane wskaź- 
niki, dopasowane do najczęściej wykorzystywanych analiz. Mnogość powsta- 
łych wskaźników wielkości efektu poddaje się próbie ich kategoryzacji. Moż- 
na wyróżnić podział uwzględniający wskaźniki w ocenie różnic, siły związku 
oraz szans. W pierwszej grupie wskaźników znajdują się wskaźniki: d Cohena, 
g Hedgesa, 4 Glassa (Ferguson, 2009), a także transformowane wskaźniki: pro- 
bit d’, logit d’, hi q Cohena (Rosnow, Rosenthal, 2003). Druga grupa wskazni- 
ków w ocenie związku wykorzystuje całą rodzinę współczynników r oraz m.in. 
takie jak: £, t, pi p. Do tej grupy wskaźników można zaliczyć również współ- 
czynniki kwadratowe: 7°, R”, 4”, poprawione-R’, w” czy « (Ferguson, 2009; 
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Vacha-Haase, Thompson, 2004). Ostatnia wskazana grupa w analizie zmien- 
nych nominalnych w ocenie szans i ryzyka wykorzystuje ryzyko względne i ilo- 
raz szans (Rosnow, Rosenthal, 2003). 

W opracowaniu zdecydowano się zaprezentować wskaźniki wielkości efek- 
tu w odniesieniu do testów statystycznych i przykładowych planów badawczych. 
Prezentację podzielono na trzy obszary najczęściej wykorzystywanych testów 
parametrycznych, nieparametrycznych oraz analiz dla zmiennych jakościowych, 
uwzględniając przy tym różne plany badawcze. 


1. Wielkość efektu testów parametrycznych 


Często spotykanym planem badawczym jest ocena dwóch niezależnych grup. 
Porównując je w analizie testem ¢ Studenta dla danych niezależnych, do oceny wiel- 
kości efektu zaprezentowany został przez Cohena (1988) współczynnik d. Wartość 
wielkości efektu Cohena (d) wyraża się wzorem (Brzeziński, 2021, s. 224): 


M; — M, (1), 
g 


a= 


gdzie: M — średnia w grupie, o — odchylenie standardowe w populacji. Problemem 
z wykorzystaniem powyższego wzoru jest odchylenie standardowe dla populacji, 
które zazwyczaj jest nieznane. Trzeba dokonać estymacji tej wartości na podsta- 
wie danych z próby, co zostało zaproponowane jako współczynnik Hedgesa (g), 
opisany wzorem (King, Minium, 2020, s. 380): 


a M, — M, 
s SS, +SS, (2), 
(m — 1) + (m — 1) 
lub 


(M — M)(1— zaj = 


s 55, +55, (3), 


(m — 1) + (ną — 1) 
gdzie: M — średnia w grupie, SS — suma kwadratów odchyleń od średniej w grupie, 
n — liczba obserwacji w grupie, df — stopnie swobody. Między prezentowanym 
wzorem d Cohena oraz g Hedgesa King i Minium (2020) stawiają znak równo- 
ści. Wskazana poprawka na liczebność próby we wzorze (3) ma szczególne za- 
stosowanie w przypadku małych grup, a jej znaczenie maleje wraz ze wzrostem 
wielkości N (Brzeziński, 2021). Prowadzi to do wniosku, że im większa liczeb- 
ność próby, tym bardziej maleje różnica między wielkością efektu g obliczoną ze 
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wzoru (2) lub (3). Inna możliwością dla rekompensacji braku znajomości odchy- 
lenia standardowego w populacji jest wykorzystanie wielkości efektu Glassa (4), 
opisanego wzorem (Fritz i in., 2012, s. 8): 


M; — M; 
AT Dea (4), 

kontrolna 
gdzie: M — średnia w grupie, SD paroma ` odchylenie standardowe w grupie kontro- 
Inej. W badaniach klinicznych czy eksperymentalnych odchylenie standardowe 
grupy kontrolnej może być lepszym estymatorem wartości populacji niż odniesie- 
nie tego wyniku do zmanipulowanych przez badanie wartości eksperymentalnych 
(Field, 2013). Problem z wielkością efektu Glassa powstaje, gdy nie mamy w pla- 
nie badawczym grupy kontrolnej. W analizie porównawczej kobiet i mężczyzn, 
osób starszych i młodszych ciężko wskazać grupę kontrolną, dlatego współczyn- 
nik Glassa będzie miał specyficzne i wąskie zastosowanie. Alternatywny i prost- 
szy w wykorzystaniu wzór wskaźnika d Cohena może być wyrażony wzorami 
(Fritz i in., 2012, s. 9): 


d= = (5), 


Jaf (6), 


gdzie: t— wartość statystyki testowej, n — liczba wszystkich obserwacji, df— stop- 
nie swobody. Stosowanie tych wzorów może być przydatne głównie w sytuacji, 
kiedy porównywane grupy są równoliczne (Rosenthal, Rosnow, Rubin, 2000). 
Wymagane wartości uzyskamy podczas analizy testem £ Studenta dla danych nie- 
zależnych, wykorzystując podstawowe pakiety analityczne, takie jak SPSS, Stati- 
stica czy Excel. Sytuacja badawcza, w której grupy nie są równoliczne, powinna 
skłonić do rozważenia w ocenie wielkości efektu wskaźnika Hedgesa. 
Porównanie dwóch pomiarów powiązanych testem £ Studenta dla danych zależ- 
nych w ocenie wielkości efektu także wykorzystuje współczynnik d Cohena. Z powo- 
du korelacji między pomiarami wzory zaprezentowane wyżej będą błędnie przybli- 
żały odchylenie standardowe dla populacji. Jego estymacje można wyrazić w postaci 
współczynnika Hedgesa (g), opisanego wzorem (King, Minium, 2020, s. 409): 


M; — M, 


g = -n 
isp? + SD2 — 2r, ,SD,SD, (7), 
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gdzie: M — średnia w grupie, SD — odchylenie standardowe w grupie, r — wartość 
korelacji Pearsona. Szacowanie wartości odchylenia dla par powiązanych wyra- 
za się innym wzorem niż prezentowane wcześniej dla grup niezależnych i jest to 
szacowanie uciążliwe w praktyce. Wzór ten może jednak zostać uproszczony do 
postaci (King, Minium, 2020, s. 409): 


o 


SSp (8), 


gdzie: D — różnica średnich pierwszego i drugiego pomiaru (M, — M,), SS, 
— suma kwadratów odchyleń wyników różnicy między pomiarami od średniej 
różnicy między pomiarami, n — liczba obserwacji. Wartości wskazane we wzo- 
rze (8) uzyskuje się podczas podstawowej analizy testem £ Studenta dla danych 
zależnych. 

Interpretując uzyskane wartości wielkości efektu, Cohen (1988) zapropono- 
wał następujące wartości: efekt słaby — (d) 0,20, efekt umiarkowany — (d) 0,50, 
efekt silny — (d) 0,80. Mimo że są one czytelne, w badaniach na przestrzeni lat 
pojawiała się rozbieżność w określaniu umiarkowanej wartości. Dlatego — jak za- 
znacza Sawilowsky (2009) — oprócz samego wyniku wskaźnika badacze powinni 
podawać przedziały, na podstawie których interpretują wielkości efektu. Lata pra- 
cy oraz większa świadomość statystyczna badaczy doprowadziły do opracowania 
rozszerzonej interpretacji wielkości efektu d. W analizach Monte-Carlo Sawilow- 
sky (2009) wykazał bowiem, że wartości wielkości efektu d z łatwością mogą 
przekraczać 1,00, a czasami nawet 2,00, dla których brakuje interpretacji. W opra- 
cowaniu autor pokazał dokładniejszą propozycję interpretacji wielkości efektu: 
efekt bardzo słaby — (d) 0,10, efekt słaby — (d) 0,20, efekt umiarkowany — (d) 
0,50, efekt silny — (d) 0,80, efekt bardzo silny — (d) 1,20, efekt ogromny — (d) 2,00 
(Sawilowsky, 2009). Interpretacja ta pokrywa się z wcześniejszymi wskazaniami 
Cohena, ale została rozwinięta o nowe, które także pojawiają się w opracowaniach. 

W badaniach skupionych na ocenie trzech i więcej grup czy pomiarów wyko- 
rzystanie współczynnika d Cohena może być utrudnione, szczególnie gdy warunków 
badawczych będzie znacznie więcej niż trzy. W takich planach badawczych stosuje 
się najczęściej analizę wariancji, gdzie w ocenie wielkości efektu można wykorzystać 
współczynnik eta-kwadrat (77), wyrażony wzorem (Olejnik, Algina, 2003, s. 435): 


n? = SSczynnik 0), 
S Scata 
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gdzie: SS— suma kwadratów odchyleń od średniej. Wartości wskazane we wzo- 
rze (9) są podstawowymi wyliczeniami prezentowanymi w analizie wariancji 
we wszystkich podstawowych pakietach statystycznych. Wielkość efektu 4” jest 
dobrym współczynnikiem do porównań wewnątrz jednego planu badawczego 
w ocenie wielkości efektów głównych (Fritz i in., 2012). Zgłaszane są jednak za- 
strzeżenia do porównania wartości 7° w analizie metadanych. Rozwiązaniem dla 
tego problemu może być wykorzystanie częściowego eta-kwadrat (n), który opi- 
sany jest wzorem (Olejnik, Algina, 2003, s. 435): 


nż = S Sczynnik 
. SS czynnik T SS rra (10), 


gdzie: SS — suma kwadratów odchyleń od średniej. Pokazane wartości składowe 
częściowej 77’ są także elementem podstawowego raportu analizy wariancji. Wzór 
ten może być wyrażony w postaci samych wartości uzyskanych w analizie wa- 
riancji (Baguley, 2009, s. 608): 


= — ŚlezynnikSFczynnik 
(dfczynnikXFczynnik) + dfyłąd (11), 


gdzie: df— stopnie swobody, F — wartość analizy wariancji. Wskaźnik 7? może być 
ograniczony przez zmiany błędu pomiaru, który wzrasta przy braku kontroli i iden- 
tyfikacji zmiennych zakłócających. Wskazuje się, że nawet wykorzystanie częścio- 
wej 4” między różnymi badaniami jest najbardziej uzasadnione, kiedy warunki i błę- 
dy pomiaru są porównywalne, jednak mimo to jest najczęściej wykorzystywanym 
wskaźnikiem wielkości efektu dla analizy wariancji (Fritz i in., 2012). Częściowa 
4 oraz podstawowa 4? mogą być interpretowane podobnie: słaby efekt — (7) 0,01, 
umiarkowany efekt — (°) 0,06 oraz silny efekt — (77) 0,14 (Olejnik, Algina, 2000). 
Sapp (2006, za: Ferguson, 2009) sugeruje, że różnica między oszacowaniem 47 i n; 
zmniejsza się wraz ze zwiększaniem wielkości próby. 

W ocenie analizy wariancji w miejsce 7’, która przeszacowuje proporcję wy- 
jaśnianej wariancji, Hays i Winkler (1975, za: Olejnik, Algina, 2003) proponują 
wykorzystanie omega-kwadrat (w’), wyrażonej wzorem (Fritz i in., 2012, s. 11): 


2 
"Ip 


2 
w? _ Oczynnik 
=" 2 (12) 
Oczynnik F Jyład ? 


gdzie: o — odchylenie standardowe dla populacji. Tutaj także — tak jak w przypadku pod- 
stawowego wzoru d Cohena — nie zawsze znamy wartości odchylenia w populacji. Mu- 
simy dokonać estymacji, sięgając po następujący wzór (Ferguson, 2009, s. 535): 
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z—. pei a (k a 1) (Stad) 
SS FS (13), 


gdzie: SS — suma kwadratów odchyleń od średniej, k — liczba grup, warunków ba- 
dawczych dla czynnika, S? — wariancja. Znacznie łatwiejszy w opracowaniu jest 
wzór omega-kwadrat, który pozwala na wykorzystanie wartości analizy wariancji 
(Fritz i in., 2012, s. 12): 


2 __ (k-1)(Fzynnie — 1) _ 
(k —1)(Fosynnix — 1) +n (14), 


gdzie: k — liczba grup, warunków badawczych dla czynnika, F — wartość analizy 
wariancji, m — całkowita liczba obserwacji. Prezentowane wzory eta i omega sta- 
nowią przykład dla prostego planu badawczego w obrębie efektu głównego. Próba 
oszacowania efektu interakcji w planach mieszanych czy analizach wieloczynniko- 
wych wymaga wprowadzenia zmian, które można znaleźć w pracach Brzezińskiego 
(2021), Olejnik i Alginy (2003), Fritz i in. (2012) czy Fielda (2013). Wskaźnik o? 
będzie wykazywał niższe wielkości efektu niż 7? opracowany na tych samych da- 
nych (Olejnik, Algina, 2003), czego powodem jest przeszacowanie proporcji wyja- 
śnianej wariancji przez wskaźnik eta. Podobnie jednak jak dla różnic w wartościach 
wskaźników eta-kwadrat i częściowego eta-kwadrat, między omega-kwadrat i eta- 
-kwadrat różnica oszacowania wielkości efektu będzie maleć zarówno przy zwięk- 
szaniu liczebności próby, jak i przy zmniejszaniu liczby czynników (Fritz i in., 
2012). Wskaźnik omega-kwadrat jest rekomendowany w przypadku danych nieza- 
leżnych (Brzeziński, 2021; Field, 2013). Interpretacja wartości omega-kwadrat po- 
krywa się z oceną wskaźnika eta: słaby efekt — (œw°) 0,01, umiarkowany efekt — (w°) 
0,06 oraz silny efekt — (w7) 0,14 (Olejnik, Algina, 2000). 


2. Wielkość efektu testów nieparametrycznych 


Oceny wielkości efektu powinny być prezentowane także w przypadku wy- 
korzystania nieparametrycznych testów statystycznych. Pokazanie w takich przy- 
padkach wartości d, g czy 4” może nie być poprawne. Testy nieparametryczne 
wykorzystuje się z pewnych powodów, takich jak brak normalności rozkładu 
zmiennych czy jakościowa skala pomiaru (Cypryańska, Bedyńska, 2013). Porów- 
nanie znacznych asymetrycznych rozkładów za pomocą wartości średnich czy 
odchylenia standardowego może prowadzić do błędnej interpretacji rzeczywistej 
wielkości efektu. Podobnie będzie, kiedy zmienna zależna ma charakter porząd- 
kowy — wówczas średnia będzie nienajlepszą miarą tendencji centralnej. Wyko- 
rzystane nieparametryczne testy różnic mają określone wielkości efektu. 
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Test U Manna-Whitneya, dedykowany do porównania dwóch grup niezależ- 
nych, w ocenie wielkości efektu może zostać wsparty przez współczynnik kore- 
lacji dwuseryjnej Glassa (r,), wyrażany wzorem (King, Minium, 2020, s. 566): 


=: 2(Mpankı = M,anx2) 


n, +n, (15), 


"9 
gdzie: n — liczba obserwacji w grupie, M „~ średnia rang w grupie. Wartości te 
można uzyskać podczas analizy testem Manna-Whitneya w podstawowych pakie- 
tach statystycznych, takich jak SPSS czy Statistica. Interpretacja wielkości efektu 
r, jest zgodna z oceną przedziałów podstawowej korelacji r Pearsona, co oznacza: 
słaby efekt — (r) 0,00-0,30, umiarkowany efekt — (r) 0,31—0,50, silny efekt — (r) 
0,51-0,70 oraz bardzo silny efekt — (r) 0,71—1,00. 

Analiza różnic dwóch pomiarów zależnych testem Wilcoxona w ocenie wiel- 
kości efektu wykorzystuje współczynnik korelacji dwuseryjnej dla par dopasowa- 
nych (7.), opisany wzorem (King, Minium, 2020, s. 572): 


R, +R_ 

4|T — ESI ie 
r, = ——— , 
z n(n + 1) 
gdzie: n — liczba wszystkich obserwacji, T— suma rang o wyższej wartości (R, lub 
R ), R, — suma rang dodatnich, R_— suma rang ujemnych. Wykorzystanie wzoru 
(16) może być utrudnione koniecznością zestawienia par wyników i samodziel- 
nego wyliczenia rang. Korzystając z pakietów statystycznych, znacznie szybciej 
można wskazać wielkość efektu r, za pomocą uproszczonego wzoru (Rosnow, 
Rosenthal, 2003, s. 231): 


ia (17), 


gdzie: z — wartość statystyki testowej, n — liczba wszystkich obserwacji. Uzysku- 
jąc te dane z analizy statystycznej, łatwiej wskazać wartość wielkości efektu r, 
której interpretacja jest zgodna z interpretacją współczynnika r Pearsona. 

Badanie porównujące trzy i więcej grup niezależnych testem nieparame- 
trycznym stwarza najczęściej podstawę do wykorzystania testu H Kruskala- Wal- 
lisa. Wielkością efektu dla testu H jest statystyka epsilon-kwadrat (e°), opisywana 
wzorem (King, Minium, 2020, s. 572): 


2 
XH 
(n? — 1)/(n? + 1) (18), 


> gm 


e 
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gdzie: n — liczba wszystkich obserwacji, 7,” — wartość statystyki testowej. War- 
tość testu Kruskala-Wallisa także jest możliwa do uzyskania przy wykorzystaniu 
pakietów statystycznych. Wyniki wielkości efektu e” można interpretować jako: 
słaby efekt — (e°) 0,01, umiarkowany efekt — (e°) 0,06 oraz silny efekt — (e°) 0,14 
(Olejnik, Algina, 2000). 

Test Friedmana stosowany jest do oceny trzech i/lub więcej pomiarów zależ- 
nych jako nieparametryczny odpowiednik analizy wariancji z powtarzanym po- 
miarem. W analizie tej do oceny wielkości efektu można wykorzystać współczyn- 
nik Kendalla (W), wyrażony wzorem (King, Minium, 2020, s. 578): 


_ oF 
WO n(k- 1) (19), 


gdzie: ,” — wartość statystyki testowej, n — liczba wszystkich obserwacji, k — licz- 
ba porównanych pomiarów. Wartość W Kendalla jest automatycznie wskazywana 
przez większość pakietów statystycznych, a jego rozpiętość mieści się w prze- 
dziale od 0,00 (brak efektu) do 1,00 (całkowity efekt). 


3. Wielkość efektu dla zmiennych jakościowych 


Wiele badań w swoim planie zakłada nominalny pomiar. Dla zestawu dwóch 
zmiennych, które z natury są dychotomiczne lub zostały poddane dychotomizacji, 
w ocenie wielkości efektu zamiast istotności samego testu chi-kwadrat (7') można 
wykorzystać opisane niżej wskaźniki. W analizie dwóch zmiennych o dwóch war- 
tościach (w planie 2x2) zastosowanie znajdzie wskaźnik fi (p), opisany wzorem 
(Lourel, Gueguen, Pascaul, Mouda, 2011, s. 632): 


p= = (20), 


gdzie: y’ — wartość statystyki testowej chi-kwadrat, n — liczba wszystkich obser- 
wacji. Wskaźnik p może przyjmować wartości od 0,00 (brak związku) do 1,00 
(związek doskonały). King i Minium (2020) zaznaczają, że jeżeli w tabeli przy- 
porządkujemy niższą wartość zmiennej jako zero, a wyższą jako jeden, to war- 
tość wskaźnika o będzie równa wartości korelacji r Pearsona. Wartość fi należy 
intepretować jako: słaby efekt — (p) 0,10, umiarkowany efekt — (p) 0,30 oraz silny 
efekt — (0) 0,50 (Brzeziński, 2021; King, Minium, 2020). 

Analiza dwóch dwukategorialnych zmiennych oprócz wskaźnika p może 
opierać się na ocenie ilorazu szans, ryzyku względnym czy ryzyku różnicy. W ta- 
beli 1 zamieszczono przykładowy schemat planu badawczego wykorzystanego 
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do omówienia kolejnych wzorów. Analiza wystąpienia zdarzeń w prostym planie 
eksperymentalnym daje możliwość wykorzystania ilorazu szans (OR), który moż- 
na wyrazić wzorem (Ferguson, 2009, s. 535): 

= A/B 

~ C/D (21), 


gdzie duże litery oznaczają liczbę obserwacji w planie badawczym opisanym 

szczegółowo w tabeli 1. Iloraz szans należy interpretować jako szansę zajścia 

zdarzenia w jednej grupie w stosunku do szansy jej zajścia w drugiej grupie. Ana- 
lizując wyniki OR, można się spotkać z trzema możliwymi wynikami: 

a) OR= 1- brak wpływu warunków badania na wystąpienie zdarzenia. W obu 
grupach: kontrolnej i eksperymentalnej — szansa na zdarzenie jest podobna 
bądź taka sama, co oznacza, że manipulacja eksperymentalna nie wpłynęła 
na występowanie zdarzenia, 

b) OR > 1 — widać wpływ oddziaływania eksperymentalnego. Im wyższy niż 
1,00 wynik OR, tym większa szansa na wystąpienie w grupie eksperymental- 
nej zdarzenia. Na przykład wartość OR = 2,00 oznacza, że szansa na wystą- 
pienie zdarzenia jest dwa razy większa w grupie eksperymentalnej, 

c) OR< 1 — wynik sugerujący większą szansę na zdarzenie w grupie kontrol- 
nej. Osiągnięcie takiego wyniku może dziwić, ale jest on zupełnie normalny 
w sytuacji braku wyróżnienia grupy podstawowej w badaniu o charakterze 
eksploracyjnym (Brzeziński, 2021). 


Tabela 1. Przykład podstawowego planu badawczego dwóch dychotomicznych zmiennych 


Grupa Badane zdarzenie 
wystąpienie zdarzenia brak zdarzenia 
Eksperymentalna A B 
Kontrolna C D 


Uwaga: duże litery reprezentują liczbę obserwacji w każdym warunku badania. 


Źródło: opracowanie własne na podstawie (Brzeziński, 2021, s. 226). 


Rosnow i Rosenthal (2003) zaznaczają, że wartość OR ma tendencję do osią- 
gania nieskończoności w sytuacji badawczej, kiedy mamy do czynienia z bardzo 
małą liczbą wartości mianownika (małym wynikiem dla grupy kontrolnej, podsta- 
wowej), co może utrudniać stawianie praktycznych wniosków. Propozycją dodat- 
kowej interpretacji ilorazu szans jest: słaby efekt — (OR) 1,50, umiarkowany efekt 
— (OR) 2,00 oraz silny efekt — (OR) 3,00 (Sullivan, Feinn, 2012). Inną możliwo- 
ścią oceny planów badawczych 2x2 jest ryzyko względne (RR), opisane wzorem 
(Ferguson, 2009, s. 535): 
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A 
RR = A+B? 
€ (22), 

C+D) 

gdzie duże litery oznaczają liczbę obserwacji w planie badawczym opisanym 
szczegółowo w tabeli 1. Wskaznik ryzyka względnego bardzo często stosowany 
jest w ocenie danych biomedycznych w odniesieniu do analiz czynników ryzy- 
ka wystąpienia zjawisk chorobowych. Wynik RR mówi o wzroście prawdopodo- 
bieństwa wystąpienia zdarzenia w grupie eksperymentalnej w stosunku do grupy 
kontrolnej. Wynik poniżej 1,00 należy intepretować jako mniejsze ryzyko na wy- 
stąpienie zdarzenia w grupie eksperymentalnej. Im wyższa od 1,00 wartość RR, 
tym większe prawdopodobieństwo wystąpienia zdarzenia w grupie eksperymen- 
talnej w stosunku do grupy kontrolnej. Tak jak w przypadku OR, wynik RR równy 
1,00 sugeruje podobne lub takie samo prawdopodobieństwo wystąpienia zdarzeń 
w grupach. Inną możliwą interpretacją ryzyka względnego jest: słaby efekt — (RR) 
2,00, umiarkowany efekt — (RR) 3,00 oraz silny efekt — (RR) 4,00 (Sullivan, Fe- 
inn, 2012). Kolejną możliwością oceny efektu dla planów badawczych 2x2 jest 
ryzyko różnic (RD), opisane wzorem (Ferguson, 2009, s. 535): 


_ A c 
AFB C+D (23), 


gdzie duże litery oznaczają liczbę obserwacji w planie badawczym opisanym 
szczegółowo w tabeli 1. Ryzyko różnicy jest znacznie prostsze w interpretacji. 
Jego wynik świadczy o faktycznej różnicy między grupami (Ferguson, 2009). Dla 
przykładu RD równe 0,06 oznacza 6% ryzyka różnicy między grupami kontrol- 
ną i eksperymentalną dla wystąpienia zdarzenia. Jak zaznacza Ferguson (2009), 
praktyczna interpretacja ryzyka różnicy może być jednak w warunkach badań 
klinicznych trudniejsza; RD może okazać się nieistotne w sytuacji ryzyka 75% 
w grupie kontrolnej i 81% w grupie eksperymentalnej, ale w odniesieniu do po- 
równania ryzyka 1% w grupie kontrolnej i 7% w grupie eksperymentalnej może 
wykazywać większą istotność (Ferguson, 2009). 

Dla większych planów badawczych dwóch zmiennych, zakładających istnie- 
nie więcej niż dwóch kategorii (plan 2x3 i większe), zastosowanie znajdzie prze- 
kształcony wskaźnik Cramera (V), opisany wzorem (Brzeziński, 2021, s, 226): 


RD 


2 


N(dfniejsze) sa 
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gdzie: x’ — wartość statystyki testowej chi-kwadrat, n — liczba wszystkich obser- 
wacji, Of, „sze 7 Mniejsza liczba stopni swobody dla kolumn lub dla wierszy. Jak 
zaznaczają King i Minium (2020), wskaźnik V można wykorzystać dla każdej ta- 
beli kontyngencji. W miarę zwiększania kategorii zmiennych wynik V może być 
coraz trudniejszy w praktycznej interpretacji analizowanych danych. Wartość wy- 
niku V należy interpretować podobnie jak podstawowy wskaźnik ø: słaby efekt 
— (V) 0,10, umiarkowany efekt — (V) 0,30 oraz silny efekt — (V) 0,50 (Brzeziński, 
2021; King, Minium, 2020). 

Wskazane w tej części wzory wskaźników wielkości efektu, ich dopasowanie 
do wykorzystanych testów statystycznych oraz propozycje ich interpretacji zesta- 
wiono w tabeli 2. Wybór odpowiedniego wskaźnika wielkości efektu powinien 
być traktowany równie poważnie jak określenie zgodnego z metodologią badania 
kierunku statystycznej analizy danych (Pek, Flora, 2018). 


Tabela 2. Dopasowanie wskaźników wielkości efektu oraz przedziały interpretacji 


Test Wskaźnik wielkości efektu Interpretacja wielkości efektu 

T Studenta d Cohena 0,20 — słaby 

g Hedgesa 0,50 — umiarkowany 
4 Glassa 0,80 — silny” 

0,10 — bardzo mały 

0,20 — mały 

0,50 — umiarkowany 
0,80 — silny 


1,20 — bardzo silny 
2,00 — ogromny” 


U Manna-Whitneya r 0,00-0,30 — słaby 
0,31-0,50 — umiarkowany 


Wilcoxona r. 0,51-0,70 — silny 
i 0,71-1,00 — bardzo silny 

Test Friedmana W Kendalla 
Analiza wariancji n, n, w’ 0,01 — słaby 

0,06 — umiarkowany 
H Kruskala-Wallisa e 0,14- silny 
Chi-kwadrat p, V 0,10 — słaby 

0,30 — umiarkowany 

0,50 — silny 


Objaśnienie: * — propozycja interpretacji Cohena; * — rozszerzona interpretacja Sawilowsky ego. 


Zródło: opracowanie własne. 
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ZAKOŃCZENIE 


Dobór odpowiedniej Ścieżki wnioskowania statystycznego oraz przeprowa- 
dzenie najbardziej zaawansowanych analiz powinny stwarzać szansę na budo- 
wanie wniosków wykraczających poza binarne systemy odpowiedzi na pytania 
badawcze. W części empirycznej opracowania zaproponowano, aby statystycz- 
na analiza danych obok wartości poziomu istotności stawiała wartość wielkości 
efektu wraz z przedziałami ufności. Odpowiednio dobrane do modelu badawcze- 
go wskaźniki wielkości efektu powinny zostać poddane interpretacji. Co wię- 
cej, wartości wskazane w analizie danych, w tym wielkości efektu, powinny być 
opatrzone komentarzem dotyczącym praktycznych implikacji. Do porównania 
dwóch grup czy pomiarów można zastosować w analizie testami parametrycz- 
nymi wskaźnik d Cohena, g Hedgesa lub 4 Glassa, a w analizie testami niepa- 
rametrycznymi — współczynnik korelacji rangowej r, Glassa lub współczynnik 
korelacji dwuseryjnej par dopasowanych r. W ocenie trzech i więcej grup czy 
pomiarów w analizie wariancji można wykorzystać ete-kwadrat (77) lub omegę- 
-kwadrat (@’). Nieparametryczne porównanie trzech i więcej grup/pomiarów daje 
szansę na ocenę wielkości efektu wskaźnikami epsilon-kwadrat (e°) oraz W Ken- 
dalla. Analiza wielkości efektu danych jakościowych wykorzystuje współczynnik 
fi (gv), V Cramera, iloraz szans (OR) oraz ryzyko względne (RR). Wartości po- 
ziomu istotności nadal pozostają ważnym elementem analizy danych, ale trzeba 
pamiętać, że „Bóg tak samo kocha 0,060, jak 0,050” (Rosnow, Rosenthal, 2003, 
s. 1277, za: Henson, 2006, s. 605). 


BIBLIOGRAFIA 


LITERATURA 

American Psychology Association (APA). (1994). Publication Manual of the American Psychology 
Association (4* ed.). Washington: Author. 

American Psychology Association (APA). (2020). Publication Manual of the American Psychology 
Association (7" ed.). Washington: Author. 

Baguley, T. (2009). Standardized or Simple Effect Size: What Should Be Reported? British Journal 
of Psychology, 100(3), 603-617. DOI: 10.1348/000712608X377117 

Bosco, F.A., Aguinis, H., Singh, K., Pierce, C.A. (2015). Correlational Effect Size Benchmarks. 
Journal of Applied Psychology, 100(2), 431-439. DOI: 10.1037/a0038047 

Brzeziński, J.M. (2021). Testy istotności różnic i wskaźniki wielkości efektu ES — wybrane zagad- 
nienia. W: Metodologia badań psychologicznych (s. 205-234). Warszawa: Wydawnictwo Na- 
ukowe PWN. 

Cohen, J. (1988). Statistical Power: Analysis for the Behavioral Sciences. Hillsdale: Lawrence Erl- 
baum Associates. 

Cypryanska, M., Bedyńska, S. (2013). Testy t-Studenta i ich nieparametryczne odpowiedniki. 
W: S. Bedyńska, M. Cypryańska (red.), Statystyczny drogowskaz 1. Praktyczne wprowadzenie 
do wnioskowania statystycznego (s. 159—193). Warszawa: Wydawnictwo Akademickie Sedno. 


156 ARKADIUSZ PRAJZNER 


Ferguson, C.J. (2009). An Effect Size: A Guide for Clinicians and Researchers. Professional Psy- 
chology: Research and Practice, 40(5), 532-538. DOI: 10.1037/a0015808 

Field, A. (2013). Discovering Statistics Using IBM SPSS. Thousand Oaks: Sage. 

Fritz, C.O., Morris, P.E., Richler, J.J. (2012). Effect Size Estimates: Current Use, Calculations and 
Interpretation. Journal of Experimental Psychology: General, 141(1), 2-18. DOI: 10.1037/ 
20024338 

Grissom, R.J., Kim, J.J. (2011). Effect Sizes for Research: Univariate and Multivariate Applications. 
New York: Routledge, Taylor and Francis Group. DOI: 10.4324/9780203803233 

Henson, K. (2016). Effect-Size Measures and Meta-Analytics Thinking in Counseling Psychology 
Research. Counseling Psychology, 34(5), 601-629. DOI: 10.1177/00110005283558 

King, B.M., Minium, E.W. (2020). Statystyka dla psychologów i pedagogów. Warszawa: Wydawnic- 
two Naukowe PWN. 

Kirk, R.E. (2001). Promoting Good Statistical Practices: Some Suggestions. Educational and Psy- 
chological Measurement, 61(2), 213-218. DOT: 10.1177/00131640121971185 

Kiihberger, A., Fritz, A., Scherndl, T. (2014). Publication Bias in Psychology: A Diagnosis Based on 
the Correlation between Effect Size and Sample Size. PLoS ONE, 9(9), 1-8. DOI: 10.1371/ 
journal.pone.0105825 

Lourel, M., Gueguen, N., Pascaul, A., Mouda, F. (2011). The Effect-Size: A Simple Methodology 
for Determining and Evaluating the “Effect-Size”. Psychology, 2(6), 631-632. DOI: 10.4236/ 
psych.2011.26096 

Olejnik, S., Algina, J. (2000). Measures of Effect Size for Comparative Studies: Applications, In- 
terpretations, and Limitations. Contemporary Educational Psychology, 25(3), 241-286. DOI: 
10.1006/ceps.2000.1040 

Olejnik, S., Algina, J. (2003). Generalized Eta and Omega Squared Statistics: Measures of Effect 
Size for Some Common Research Designs. Psychological Methods, 8(4), 434-447. DOI: 
10.1037/1082-989X.8.4.434 

Pek, J., Flora, D.B. (2018). Reporting Effect Size in Original Psychological Research: A Discussion 
and Tutorial. Psychological Methods, 23(2), 208-225. DOI: 10.1037/met0000126 

Rosenthal, R., Rosnow, R.L., Rubin, D.B. (2000). Contrasts and Effect Sizes in Behavioral Re- 
search: A Correlational Approach. Cambridge: Cambridge University Press. DOI: 10.1017/ 
CBO9780511804403 

Rosnow, R.L., Rosenhtal, R. (2003). Effect Size for Experimenting Psychologists. Canadian journal 
of Experimental Psychology, 57(3), 221-237. DOI: 10.1037/h0087427 

Sawilowsky, S.S. (2009). New Effect Size Rules of Thumb. Journal of Modern Applied Statistical 
Methods, 8(2), 597-599. DOI: 10.22237/jmasm/1257035100 

Sullivan, G.M., Feinn, R. (2012). Using Effect Size — or Why the p Value Is Not Enough. Journal of 
Graduate Medical Education, 4(3), 279-282. DOI: 10.4300/JGME-D-12-00156.1 

Sun, S., Pan, W., Wang, L.L. (2010). A Comprehensive Review of Effect Size Reporting and Inter- 
preting Practice in Academic Journals in Education and Psychology. Journal of Educational 
Psychology, 102(4), 989-1004. DOT: 10.1037/a0019507 

Vacha-Haase, T., Thompson, B. (2004). How to Estimate and Interpret Various Effect Sizes. Journal 
of Counseling Psychology, 51(4), 473-481. DOI: 10.1037/0022-0167.51.4.473 


NETOGRAFIA 

Coe, R. (12-14.09.2002). Its the Effect Size, Stupid. British Educational Research Association 
Annual Conference, Exeter, Great Britain. Pobrane z: https://f.hubspotusercontent30.net/ 
hubfs/5191137/attachments/ebe/ESguide.pdf 


WYBRANE WSKAZNIKI WIELKOSCI EFEKTU W BADANIACH PSYCHOLOGICZNYCH 157 


ABSTRACT 


Reflecting the changing statistical practice in psychological research, dominated by null hypo- 
thesis testing using a decision about the level of significance of the results, the recommendations are 
indicated for reporting effect sizes in papers. The study presents the concept of the effect size and 
indicates its place in data analysis regarding to outcome’s significance. The purpose of the work is to 
describe selected effect size indicators and to point the need of use and their proper presentation and 
interpretation in social sciences empirical work data analysis reports. Considering statistical analysis 
approach limits based on significance level only, the study presents the possibility of including in the 
data analysis an indicator of a more practical use which is the size of the effect. By using the most 
popular analysis methods, such as, Student t-test, univariate analyses of variance in between- and 
within-group schemes as well as Wilcoxon test, Mann-Whitney’s U, Kruskal-Wallis H, Friedman’s 
test and considering analysis for qualitative data, matched to research plans indicators of the effect 
size were presented. The paper presents the use, calculation and interpretation of the size effect such 
as: Cohen’s d, Hedges g, delta, Glass’s To matched pairs correlation r, eta-square, omega-square 
and epsilon-square, Kendall’s W and fi, Cramer’s V as well as odds ratio and relative risk. The pre- 
sentation of the effect size indicators was contrasted with the corresponding research plans and the 
type of data collected. 


Keywords: effect size; null hypothesis; statistical analysis; psychological research 


